lien de la base : https://www.kaggle.com/datasets/vanpatangan/divorce-prediction
Le mariage est souvent perçu comme l’union d’une union durable, symbolisant l’engagement et la stabilité dans la vie d’un couple. Pourtant, dans de nombreux contextes, les mariages connaissent des trajectoires variées : certains dure toute une vie, d’autre se terminent plus rapidement par un divorce. Ce phénomène est particulièrement intéressant à observer lorsque celui-ci repose sur un mariage arrangé, qui repose sur des dynamiques sociales et familiales différentes de celles d’un mariage romantique. Ces unions peuvent parfois révéler des différences profondes entre les partenaires ou faire émerger des schémas de relations complexes, voire toxiques.
Dans le cadre de cette étude, nous utilisons une base de données synthétique portant sur des mariages arrangés afin d’examiner la durée de ces unions et les facteurs susceptibles d’influencer leur stabilités. L’Analyse de Survie constitue ici un outil pertinent pour modéliser le temps écoulé entre le mariage et le divorce afin de mieux comprendre la distribution temporelle des ruptures.
Cette analyse est surtout pertinente d’un point de vue sociologique, permet de mieux comprendre les dynamiques relationnelles qui conduisent à la stabilité ou à la rupture d’un mariage. Étudier la durée d’un mariage et les facteurs associés au divorce éclaire notamment des notions essentielles comme la confiance, la communication, la gestion des conflits ou l’évolution des attentes au sein du couple. Comprendre ces mécanismes aide à mieux appréhender la manière dont les individus construisent ou parfois perdent un lien conjugal durable.
Elle présente également un intérêt social plus large : identifier les facteurs de fragilité permet de sensibiliser les couples, d’améliorer les dispositifs d’accompagnement et de renforcer la prévention. L’objectif n’est pas seulement d’anticiper une rupture, mais aussi de favoriser un environnement relationnel plus sain, où les partenaires disposent des ressources pour maintenir un mariage fondé sur la confiance, la solidarité et le respect mutuel.
La stabilité conjugale constitue un enjeu important sur les plans socia, démographique et psychologique. La durée d’un mariage influence notamment le bien-être des individus, le développement des enfants, mais aussi la structuration des familles et la cohésion sociale. À l’inverse, le divorce ou la séparation engendre des conséquences multiples : coûts émotionnels, réorganisation familiale, contraintes économiques ou fragilité psychologique.
Dans le cas des mariages arrangés, ces enjeux sont accentués par des dynamiques culturelles particulières, notamment le rôle de l’entourage, l’absence de choix conjugal initial ou la pression sociale. Étudier la durée de ces unions permet donc de mieux comprendre les mécanismes spécifiques qui favorisent la stabilité ou, au contraire, précipitent la rupture.
Quels facteurs influencent la durée d’un mariage arrangé et la probabilité de divorce ou de séparation au fil du temps ? Comment des caractéristiques individuelles, familiales ou relationnelles peuvent-elles modifier le risque de rupture ?
Quels facteurs influencent la durée de mariage ?
Notre base de données comporte 5000 observations pour 22 variables. Sur les 22 variables, nous retrouvons près de 10 variables quantitatives pour 12 qualitatives. De plus, notre base de données ne comporte aucune valeurs manquantes, ce qui réduit la complexité des prétraitements des données et permet de déterminer directement l’analyse exploratoire. Le tableau ci-dessous synthétise la présentation ainsi que les types et sous-type de variables.
| Nom_de_la_variable | Description | Type | Sous_type |
|---|---|---|---|
| age_at_marriage | Âge au mariage | Quantitative | Discrète |
| marriage_duration_years | Durée du mariage | Quantitative | Discrète |
| divorced | Divorce (oui/non) | Qualitative | Binaire |
| num_children | Nombre d’enfants | Quantitative | Discrète |
| education_level | Niveau d’éducation | Qualitative | Ordinale |
| employment_status | Statut professionnel | Qualitative | Nominale |
| combined_income | Revenu combiné | Quantitative | Continue |
| religious_compatibility | Compatibilité religieuse | Qualitative | Nominale |
| cultural_background_match | Correspondance culturelle | Qualitative | Binaire |
| communication_score | Score de communication | Quantitative | Continue |
| conflict_frequency | Fréquence des conflits | Quantitative | Discrète |
| conflict_resolution_style | Style de résolution de conflit | Qualitative | Nominale |
| mental_health_issues | Problèmes de santé mentale | Qualitative | Binaire |
| financial_stress_level | Niveau de stress financier | Quantitative | Continue |
| infidelity_occurred | Infidélité survenue | Qualitative | Binaire |
| counseling_attended | A suivi un counseling | Qualitative | Binaire |
| social_support | Soutien social | Quantitative | Continue |
| shared_hobbies_count | Nombre de hobbies partagés | Quantitative | Discrète |
| marriage_type | Type de mariage | Qualitative | Nominale |
| pre_marital_cohabitation | Cohabitation avant mariage | Qualitative | Binaire |
| domestic_violence_history | Historique de violence domestique | Qualitative | Binaire |
| trust_score | Score de confiance | Quantitative | Continue |
Notre base de données comporte deux variables temporelles intéressantes à étudier :
marriage_duration_years : Mesure la Durée du
mariage de l’individuage_at_marriage : Mesure l’âge où
l’individu s’est mariéNous verrons donc une double analyse entre sur la
| Fonction | Définition | Durée_du_mariage | Âge_au_mariage |
|---|---|---|---|
| \(S(t)\) | \(S(t) = P(T \geq t) = e^{-H(t)}\) | Probabilité que le mariage dure ≥ t | Probabilité de rester marié si marié à l’âge t |
| \(H(t)\) | \(H(t) = \int_0^t h(u)\,du = -\ln S(t)\) | Risque cumulé de divorce jusqu’à t | Risque cumulé de divorce selon âge au mariage ≤ t |
| \(h(t)\) | \(h(t) = -\dfrac{S'(t)}{S(t)}\) | Risque instantané de divorce à t | Risque instantané de divorce pour un âge de mariage t |
Estimateur empirique de la fonction de survie :
\[ \hat{S}(t) = \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{1}_{\{t_i > t\}} \]
Cet estimateur correspond simplement à la proportion
d’individus encore mariés au temps \(t\).
Il suppose qu’il n’y a aucune donnée censurée**, c’est-à-dire
que tous les individus ont eu l’événement observé.
Lorsque certains individus quittent l’étude avant l’événement (par
exemple, encore mariés à la fin de l’observation),
on introduit la variable de censure :
\[ \delta_i = \begin{cases} 1 & \text{si l'événement (divorce) est observé pour } i \\ 0 & \text{si l'observation est censurée} \end{cases} \]
On note \(T_{1} \le T_{2} \le \dots \le T_{n}\) les temps d’observation triés et \(\delta_i\) les événements correspondants.
Alors, l’estimateur de Kaplan-Meier s’écrit :
\[ \hat{S}(t) = \prod_{T_i \le t,\, \delta_i = 1} \left( 1 - \frac{1}{\sum_{j = 1}^{n} 1_{T_j \ge T_i}} \right) \]
ou, de manière équivalente, en notant \(d_i\) le nombre d’événements à \(T_i\)
et \(n_i\) le nombre d’individus “à
risque” juste avant ce temps :
\[ \hat{S}(t) = \prod_{T_i \le t} \left( 1 - \frac{d_i}{n_i} \right) \]
L’estimateur de Nelson-Aalen permet d’estimer le risque cumulatif \(\Lambda(t)\) dans le cadre de données censurées.
Soit :
On définit :
\(H(t) = P(T > t) = P(X > t, C > t) = P(X > t)P(C > t)= S(t) G(t)\) où \(G\) est la fonction de survie de la censure \(C\)
\(H_1(t) = P(T > t, \delta = 1) = P(X > t, C > X)\)
On peut écrire \(H_1(t)\) en fonction de la densité \(f(u)\) de \(X\) et de \(G(u)\) :
\[ \begin{aligned} H_1(t) &= P(X > t,\, C > X) \\ &= E\big[ \mathbf{1}_{\{X > t\}} \cdot \mathbf{1}_{\{C > X\}} \big] \\[6pt] &= E\Big[ \mathbf{1}_{\{X > t\}} \, E\big[\mathbf{1}_{\{C > X\}}\mid X\big] \Big] \\[6pt] &= E\big[ \mathbf{1}_{\{X > t\}} \, P(C > X \mid X) \big] \\[6pt] &= E\big[ \mathbf{1}_{\{X > t\}} \, G(X^-) \big] \\[6pt] &= \displaystyle \int_{t}^{\infty} G(u^-) \, f(u)\,du \\[6pt] &= - \displaystyle \int_{t}^{\infty} G(u^-) \, dS(u) \end{aligned} \]
On obtient donc :
\[ dH_1(t) = G(t^{-})dS(t) \]
Et donc par le temps on obtient :
\[ \frac{dH_1(t)}{dt} = \frac{G(t^{-})dS(t)}{dt} \]
ce qui donne mathématiquement :
\[ H_1'(t) = G(t^{-})S'(t) \]
Ainsi on a :
\[ \begin{aligned} \hat{H}_{NA}(t) &= \displaystyle \int_{0}^{t} h(u) \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{S'(u)}{S(u)} \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{\frac{H_1(u)}{G(u^{-})}}{\frac{H(u)}{G(u)}} \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{H_1(u)}{H(u)}\frac{G(u)}{G(u^{-})} \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{H_1(u)}{H(u)} \, du \end{aligned} \]
Un estimateur naturel s’obtient en remplaçant les fonctions \(H\) et \(H_1\) par leurs équivalents empiriques (calculables car les variables \(T\) et \(\delta\) sont observées):
\[ \hat{H}(u) = \frac{1}{n} \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u\}}, \quad \hat{H}_1(u) = \frac{1}{n} \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u, \delta_i = 1\}} \]
L’estimateur de Nelson-Aalen est alors donné par :
\[ \hat{H}_{NA}(t) = \displaystyle \int_{0}^{t} - \frac{\displaystyle \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u, \delta_i = 1\}}}{\displaystyle \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u\}}} \, du \]
Comme \(T\) est à temps discret, l’intégrale devient une somme sur les temps d’événement distincts , et on définit alors pour chaque temps d’événement \(t_i\) :
\[ d_i = \sum_{j=1}^{n} \mathbf{1}_{\{T_j = t_i, \delta_j = 1\}}, \quad n_i = \sum_{j=1}^{n} \mathbf{1}_{\{T_j \ge t_i\}}. \]
Ce qui donne :
\[ \hat{H}_{NA}(t) = \sum_{t_i \le t} \frac{d_i}{n_i}. \]
Une autre façon de calculer la fonction de risque cumulée et de passer par l’estimateur de beslow.
Rappel : l’estimateur de Kaplan–Meier de la fonction de survie s’écrit, pour des temps d’événement distincts \(t_1<\dots<t_m\), \[ \hat{S}(t)=\prod_{t_i\le t}\left(1-\frac{d_i}{n_i}\right), \] où \(d_i\) est le nombre d’événements au temps \(t_i\) et \(n_i\) le nombre d’individus à risque juste avant \(t_i\).
En utilisant la relation \[ H(t)=-\log S(t), \] on obtient l’estimateur de Breslow du risque cumulé : \[ \hat{H}_{\text{Breslow}}(t) = -\log\big(\hat{S}(t)\big) = -\log\!\left(\prod_{t_i\le t}\left(1-\frac{d_i}{n_i}\right)\right) = -\sum_{t_i\le t} \log\!\left(1-\frac{d_i}{n_i}\right). \]
Pour des fractions \(d_i/n_i\) petites, on utilise l’approximation \(\log(1-x)\approx -x\) pour \(x\) proche de \(0\). Ainsi \[ \sum_{t_i\le t}\log\!\left(1-\frac{d_i}{n_i}\right) \approx \sum_{t_i\le t}\frac{d_i}{n_i}, \] Ce qui montre que l’estimateur de Breslow est proche (et asymptotiquement équivalent) à l’estimateur de Nelson–Aalen \(\hat{H}_{NA}(t)=\sum_{t_i\le t}\dfrac{d_i}{n_i}\) lorsque les sauts sont petits.
| Méthode | Formule | Description |
|---|---|---|
| Nelson-Aalen | \(\hat{H}_{NA}(t) = \sum_{t_i \le t} \dfrac{d_i}{n_i}\) | Estimateur non paramétrique basé sur les événements observés et le nombre de sujets à risque. |
| Breslow | \(\hat{H}_{\text{Breslow}}(t) = - \sum_{t_i \le t} \log\left(1 - \dfrac{d_i}{n_i}\right)\) | Estimateur du risque cumulatif dérivé de \(H(t) = -\log(S(t))\) via l’estimateur de Kaplan-Meier. |